We discover a robust self-supervised strategy tailored towards molecular representations for generative masked language models through a series of tailored, in-depth ablations. Using this pre-training strategy, we train BARTSmiles, a BART-like model with an order of magnitude more compute than previous self-supervised molecular representations. In-depth evaluations show that BARTSmiles consistently outperforms other self-supervised representations across classification, regression, and generation tasks setting a new state-of-the-art on 11 tasks. We then quantitatively show that when applied to the molecular domain, the BART objective learns representations that implicitly encode our downstream tasks of interest. For example, by selecting seven neurons from a frozen BARTSmiles, we can obtain a model having performance within two percentage points of the full fine-tuned model on task Clintox. Lastly, we show that standard attribution interpretability methods, when applied to BARTSmiles, highlight certain substructures that chemists use to explain specific properties of molecules. The code and the pretrained model are publicly available.
translated by 谷歌翻译
可以使用Huffman代码来压缩使用给定字母的符号编写的文本,该代码可最大程度地减少编码文本的长度。但是,有必要使用特定于文本的代码簿,即符号代码字典来解码原始文本。因此,应通过完整的代码长度,即编码文本的长度以及代码簿的长度来评估压缩性能。我们研究了几个字母,用于压缩文本 - 字母,字母,音节,单词和短语的n-gram。如果仅保留足够短的文本,则最佳字母或两倍的字母字母是最佳的。对于大多数Project Gutenberg文本,根据代码簿的表示,最好的字母(将完整代码长度最小化的字母最小化)是由音节或单词给出的。字母3和4克,平均具有与音节/单词相当长的长度,其性能比音节或单词差。在拥有非常大的代码簿的帐户上,Word 2-grams也从来都不是最好的字母。我们还表明,代码书表示很重要 - 从天真的表示变为紧凑的表示可以显着改善具有大量符号的字母的事项,最著名的是单词。因此,语言(音节或单词)的表达含义元素提供了最佳的压缩字母。
translated by 谷歌翻译
非负矩阵分解(NMF)是一种有价值的矩阵分解技术,其产生了数据集的“基于部分”分解。Wi-Fi用户数是智能和连接城市环境中的群体运动的隐私保留指标。在本文中,我们将NMF应用于博尔德校区从科罗拉多大学嵌入到Wi-Fi用户数数据的新矩阵,以便自动识别智能和连接的基础设施环境中的人类运动模式。
translated by 谷歌翻译